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摘要 : 

[目的 ] 拓 展 以 物种 为 中 心 的 生物 多 样 性 知识 抽取 框架 ， 探 索 实现 语义 知识 抽取 方法 

[方法 ] 结 合 当 前 生物 多 样 性 抽取 的 主流 研究 ， 以 物种 为 中 心 ， 设 计 包 含 多 种 实体 及 实 
体 间 关系 的 知识 抽取 框架 ， 利 用 已 有 的 众多 专业 数据 库 ， 设 计 并 实现 相应 的 识别 方法 。 

[结果 ] 设 计 了 以 物种 为 核心 的 知识 抽取 框架 ， 探 索 实现 了 多 种 实体 及 实体 间 关 系 的 
语义 知识 抽取 方法 ， 拓 展 了 生物 多 样 性 领域 抽取 内 容 和 思路 。 

[局 限 ] 本 研究 实体 识别 的 完整 性 和 准确 性 受 底层 知识 库 影响 较 大 ， 且 实体 间 关 系 的 

类 型 局 限于 共 现 、 上 下 位 类 、 语 法 关系 几 类 ， 还 需 进 一 步 研究 。 
[结论 ] 拓展 了 生物 多 样 性 领域 抽取 内 容 和 思路 ， 可 有 效 支持 后 续 的 语义 检索 、 科 
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Abstract: 
[Objective] It is aimed to expand the knowledge extraction framework in biodiversity, and 
implement the knowledge extraction method. 
[Methods] This paper designs a knowledge extraction framework with various entities and entity 
relationships for biodiversity, which combines with current main biodiversity extraction research 
and takes species as the center. Besides, it implements the knowledge extraction method based on 
amount of specialized databases. 
[Results] This paper designs a species-central knowledge extraction framework for biodiversity, 
implements the knowledge extraction method about semantic named entities identification and 
relationships identification among them, and expands the units and methods for knowledge 
extraction in biodiversity field. 
[limitations] The recall and precision of the knowledge are effected by the dictionaries and rules. 
Besides, the semantic relationships among named entities are limited in co-occurrence， 
hierarchical and simple syntactic relationships. All mentioned above should be improved in the 
future. 
[Conclusions] It expands the knowledge units and methods for knowledge extraction in 
biodiversity. It could support the follow-up semantic retrieval and computation. 
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1 引言 

随 着 全 球 气候 变 暧 、 各 种 自然 灾害 频 发 等 问题 ， 物 种 灭绝 速度 越 来 越 快 ， 
针对 生物 多 样 性 保护 与 持续 利用 的 研究 日 益 成 为 生物 多 样 性 研究 的 焦点 ， 大 量 
与 之 相关 的 研究 论文 急剧 增长 。 如 何 帮 助 科研 人 员 从 这 些 富 含 了 大 量 物种 名 称 
(科学 命名 、 别 名 、 俗 名 、 变 种 名 等 ) 、 基 因 、 实 验 设备 等 实体 的 文档 中 快速 
发 现 所 需 信息 ， 是 生物 多 样 性 信息 学 面临 的 重要 问题 之 一 。 针 对 此 ， 越 来 越 多 


和 本 文系 国家 十 二 五 科技 支撑 计划 项 目 “ 面 向 外 文科 技 文献 信息 的 知识 组 织 体系 建设 与 应 用 示范 
(STKOS)” 的 子 课题 “信息 资源 自动 处 理 、 智 能 检索 与 STKOS 应 用 服务 集成 ” ( 硕 目 编号 :2011BAHIOBO 
成 果 之 一 


的 研究 者 正 努 力 尝 试 利用 现 有 众多 的 生物 多 样 性 专业 数据 库 ， 如 物种 名 录 、 标 
本 库 、 图 片 库 、 基 因 库 等 ， 从 生物 多 样 性 描述 文本 或 文献 中 提取 知识 对 象 ， 并 
借助 语义 内 容 标 注 技术 实现 知识 对 象 的 自动 深层 标 引 ， 实 现 数字 资源 之 间 的 语 
义 集成 和 关联 ， 从 而 为 进一步 的 语义 检索 、 数 据 挖掘 、 科 学 计算 提供 文 撑 。 

本 文 在 对 当前 生物 多 样 性 信息 抽取 领域 相关 研究 分 析 的 基础 上 ， 结 合 中 国 
科学 院 文献 情报 中 心 “建设 生物 多 样 性 领域 本 体 构建 与 语义 组 织 应 用 示范 平 
台 ” 的 实际 要 求 ， 设 计 了 生物 多 样 性 语义 知识 抽取 框架 ， 探 索 实 现 了 相应 的 语 
义 知 识 抽取 方法 ， 开 发 了 相应 的 生物 多 样 性 示范 平台 。 

2 相关 研究 概述 

在 众多 研究 者 的 努力 下 ， 目 前 已 经 出 现 了 不 少 针对 生物 多 样 性 领域 的 信息 
抽取 工具 ， 这 些 工具 或 者 采用 单一 的 自然 语言 处 理 、 词 典 、 机 器 学 习 、 规 则 模 
板 、 浅 度 或 深度 句法 解析 、 概 率 分 类 等 方法 ， 或 者 融合 上 述 几 种 方法 进行 识别 ， 
识别 的 内 容 多 数 集中 于 物种 的 各 类 名 称 《〈 科 学 命名 、 别 名 、 俗 名 、 变 种 名 等 ) ， 
部 分 工具 涉及 对 物种 的 性 状 的 识别 。Anne E. Thessen 等 人 在 文献 1 中 中 综述 了 当 
前 在 生物 多 样 性 领域 使 用 自然 语言 处 理 和 机 器 学 习 算 法 实现 物种 名 称 识别 的 的 
相关 研究 ，Nona Naderi 等 人 在 文献 2 中 集中 介绍 了 GATE 框架 下 提供 的 生物 
医学 领域 的 各 种 工具 。 上 述 文献 对 常规 的 生物 多 样 性 信息 抽取 流程 ， 主 流 的 信 
奶 抽 取 方 法 〈 基 于 词典 、 基 于 规则 、 浅 度 句 子 解析 、 深 度 句 法 解析 等 ) 进行 了 
全 面 的 评述 ， 并 对 各 个 阶段 的 主要 信息 抽取 工具 进行 了 全 面 的 综述 。 本 文 将 不 
再 对 上 述 内 容 进行 重复 介绍 ， 而 是 结合 当前 一 些 重要 的 生物 多 样 性 信息 抽取 工 
有 具 ， 重 点 对 生物 多 样 性 领域 抽取 的 内 容 进行 探讨 ， 希 望 在 此 基础 上 对 笔者 进 一 
步 提出 生物 多 样 性 知识 抽取 框架 提供 参考 文 撑 。 

在 目前 生物 多 样 性 抽取 研究 中 ， 主 要 抽取 内 容 可 以 归纳 为 以 下 几 个 方面 : 
2.1 物种 名 称 识别 及 规范 

由 于 语种 、 地 方 称谓 等 的 差异 ， 科 技 文献 中 出 现 的 同一 个 物种 名 称 是 多 种 
多 样 的 。 有 的 是 标准 规范 的 双 名 制 命名 法 〈 或 三 名 制 命 名 法 ) 形成 的 拉丁 文 名 ， 
即 属 名 加 种 名 若是 亚 种 则 在 种 名 前 再 加 上 一 个 亚 种 名 〉 ， 且 属 名 在 前 ， 种 名 
在 后 ， 属 名 第 一 个 字 大 写 ， 种 名 小 写 ， 属 种 名 称 均 为 全 称 ， 后 面 通常 还 会 跟随 
着 物种 命名 人 的 姓氏 ;有 的 采用 取 属 名 首 字 母 、 种 名 全 称 的 缩写 方式 ， 有 的 会 
采用 物种 的 俗名 《可 能 是 英文 ， 也 可 能 是 其 他 语种 ， 同 一 个 物种 在 不 同 的 国家 
或 地 区 也 可 能 会 有 不 同 的 俗名 ) 由。 这 些 问 题 的 存在 大 大 增加 了 物种 名 称 识 别 的 
难度 。 因 此 目前 有 不 少 研究 者 专门 针对 物种 名 称 的 识别 、 规 范 及 组 织 进 行 了 研 
究 ， 这 也 是 当前 生物 多 样 性 抽取 相关 研究 的 主流 。 这 些 研究 中 产生 的 研究 成 果 
中 比较 典型 的 包括 可 用 作物 种 名 称 识别 与 规范 词典 的 NCBI 
taxonomyD、BioNamesqg《〈 一 个 将 动物 名 称 与 其 来 源 描述 、 分 类 及 进化 树 关 联 的 
在 线 数 据 库 ) 、 物 种 2000 全 球 生 物 物 种 名 录 叫 ， 也 包括 各 种 比较 成 熟 物 种 名 称 
识别 工具 如 NetiNetiam、Linnaeus 由 、OrganismTagger%、TaxonGrab0o 等 。 

2.2 物种 性 状 识别 

对 物种 分 类 学 研究 人 员 而 言 ， 物 种 的 各 类 性 状 描 述 信 息 ， 如 根 、 茎 、 叶 的 
颜色 、 长 度 等 ， 是 界定 物种 门类 的 重要 参考 信息 。 因 此 ， 有 一 部 分 生物 信息 学 
研究 人 员 着 力 于 探索 物种 各 类 性 状 的 自动 识别 方法 。Taylor 中 在 分 析 文 本 语法 特 
征 的 基础 上 , 以 人 工 方式 建立 规则 和 词典 ,实现 了 物种 部 位 、 特 征 及 状态 等 描述 
信息 的 识别 。Tango2 等 在 相关 研究 基础 上 ， 通 过 预定 义 模 板 的 方式 ， 有 监督 地 
学 习 生 成 相关 的 规则 ， 实 现 了 对 物种 叶子 的 形状 、 大 小 、 颜 色 、 排 列 及 果实 的 


形状 特征 的 识别 。Hong Cuim 等 人 开发 的 CharaParser 采用 启发 式 方法 和 句法 特 
征 生成 规则 ， 较 好 地 实现 了 对 物种 多 类 性 状 的 识别 。 段 宇 锋 等 人 上 持续 探索 着 
中 文 植物 物种 多 样 性 描述 文本 中 形态 信息 的 抽取 。 
2.3 生物 网 络 识别 "s 
各 种 生物 实体 〈 物 种 、 分 子 、 基 因 、 有 蛋白 等 ) 之 间 存 在 着 多 种 关系 ， 这 些 
关系 可 以 用 网 络 图 的 方式 表达 出 来 ， 进 而 通过 对 图 的 分 析 实 现 对 生物 系统 的 分 
析 n%。 和 蛋白 质 和 基因 是 生物 医药 领域 普 裔 关注 的 重点 内 容 ， 关 于 这 类 知识 的 识 
别 研究 并 不 限 在 生物 多 样 性 领域 开展 。 当 前 生物 多 样 性 相关 的 文献 中 ， 研 究 人 
员 可 通过 对 物种 基因 测序 的 方式 来 鉴定 物种 的 亲缘 性 ， 也 可 通过 采用 蛋白质 或 
基因 技术 影响 或 改变 生物 的 内 外 环境 或 特征 ， 从 而 研究 相关 问题 。 因 此 ， 对 重 
和 白质 和 基因 的 识别 更 多 地 不 仅仅 是 识别 出 和 蛋白质、 基因 等 命名 实体 单元 ， 而 是 
识别 出 各 类 生物 实体 之 间 通 过 动词 〈 或 动词 短语 ) 、 介 词 〈 或 介词 短语 ) 、 所 
有 格 等 关联 而 成 的 生物 网 络 关 系 。 在 此 基础 上 可 进一步 开展 资源 的 重组 织 、 语 
义 检索 、 计 算 分 析 等 工作 。 
3 语义 知识 框架 设计 
上 文 对 当前 生物 多 样 性 抽取 领域 当前 重点 关注 的 抽取 内 容 及 其 相关 的 资源 
工具 进行 了 分 析 。 结 合 中国 科 学 院 文 献 情报 中 心 “ 建 设 生物 多 样 性 领域 本 体 构 
建 与 语义 组 织 应 用 示范 平台 ”的 实际 要 求 ， 从 实际 应 用 的 角度 出 发 ， 在 人 工 标 
引 了 100 篇 生物 多 样 性 领域 的 科技 文献 后 ， 笔 者 以 物种 为 核心 ， 综 合 分 析 了 当 
前 生物 多 样 性 领域 研究 中 可 能 涉及 的 与 物种 研究 相关 的 知识 单元 类 型 ， 各 知识 
单元 类 型 之 间 的 关联 关系 ， 设 计 了 如 图 1 所 示 的 生物 多 样 性 语义 知识 框架 ， 该 
语义 知识 框架 是 进一步 支持 笔者 开展 知识 抽取 、 知 识 组 织 的 基础 。 
从 图 中 可 以 直接 看 出 ， 笔 者 的 知识 框架 中 包含 了 两 个 方面 的 语义 知识 : 语 
义 知识 单元 、 语 义 知 识 单元 之 间 的 语义 关联 。 
3.1 语义 知识 框架 中 的 知识 单元 
这 里 的 知识 单元 即 图 1 每 个 文本 框 中 列 出 的 语义 类 型 ， 在 实际 的 科技 文献 
中 ， 这 些 知识 单元 往往 以 命名 实体 名 称 或 短语 的 形式 表达 出 来 ， 将 科技 文献 中 
提 及 的 命名 实体 名 称 或 短语 以 图 1 中 定义 的 语义 类 型 进行 标注 ， 即 可 实现 该 语 
义 单元 的 识别 。 图 1 中 所 有 的 知识 单元 语义 类 型 均 以 图 中 心 的 物种 为 核心 ， 这 
些 类 型 覆盖 了 物种 的 各 个 方面 ， 包 括 名 称 、 分 布 、 特 征 、 生 长 发 育 阶段 、 影 响 
因素 等 ， 部 分 大 的 分 面 上 还 有 其 进一步 细 分 的 下 级 类 ， 部 分 分 面 会 共有 一 些 语 
义 单元 。 
@ 物种 名 称 。 包 括 各 种 物种 名 称 、 变 种 名 称 、 品 种 名 称 、 变 型 名 称 、 物 
种 的 各 种 俗名 。 
@ 物种 特征 。 包 括 各 类 物种 的 器 官 、 细 胞 、 基 因 等 。 
@ 物种 分 布 。 这 里 的 物种 分 布 包括 地 理 区 域 上 的 分 布 ， 同 时 还 包括 不 同 
生态 环境 下 的 分 布 ， 因 此 ， 该 方面 的 知识 单元 除了 洲 、 国 、 地 区 、 城 
市 、 县 等 地 理 名 称 外 ， 还 包含 生物 群落 、 地 貌 、 物 理 环境 (高 度 、 沁 
度 、 湿 度 等 ) 。 
@ 物种 生物 发 育 阶 段 。 包 括 物种 的 发 育 阶 段 、 物 种 各 器 官 的 发 育 阶段 。 
@ ”对 物种 产生 影响 的 因素 。 能 对 物种 产生 影响 的 包括 非 生物 因素 和 生物 
因素 两 类 ， 其 中 ， 非 生物 因素 包括 温度 、 湿 度 、 海 拔高 度 、 土 壤 等 ， 
生物 因素 则 包括 各 种 细胞 、 染 色 体 、 有 蛋白 质 、DNA、 基 因 片 段 、 化 学 
元 素 、 化 合 物 等 。 


@ ”对 物种 分 类 的 各 种 标准 和 生态 位 模型 工具 。 
@ ”对 物种 实验 的 各 种 分 析 方 法 及 设备 仪器 。 
@ 其它 基本 信息 。 包 括 人 、 机 构 及 目前 无 法 确定 明确 语义 的 名 词 短 语 。 
这 些 知 识 单元 基本 上 涵盖 了 当前 生物 多 样 性 ， 尤 其 是 物种 多 样 性 研究 中 的 主 
体 知识 单元 ， 它 们 构成 了 相关 研究 的 主要 知识 点 。 
3.2 语义 知识 框架 中 的 语义 关联 
上 文中 分 析 的 这 些 知 识 单元 并 不 是 以 独立 的 形式 存在 于 科技 文献 中 ， 他 们 彼 
此 之 间 往 往 还 存在 着 各 种 语义 关联 ， 结 合 这 些 语义 关联 才能 够 最 大 化 地 利用 这 
些 知 识 单元 实现 深层 的 文本 内 容 挖掘 。 在 本 文 定义 的 语义 知识 单元 中 ， 笔 者 根 
据 实 际 应 用 及 后 续 能 够 识别 出 来 的 现实 情况 ， 定 义 了 有 限 的 几 种 语义 关联 ， 这 
些 语义 关联 可 以 作为 事实 三 元 组 支持 进一步 的 文本 分 析 。 例 如 : 
< 生物 因素 / 非 生物 因素 > 在 < 物理 环境 > 下 
< 生物 因素 / 非 生物 因素 > 作用 于 < 物种 /器 官 /细胞 > 
< 生物 因素 / 非 生物 因素 > 作用 于 < 生物 阶段 > 
< 分 析 方 法 /仪器 设备 > 作用 于 < 物种 /器 官 /细胞 > 
< 物种 /器 官 /细胞 > 呈现 的 < 生物 特征 > 
< 物种 /器 官 /细胞 > 的 < 生物 阶段 > 
< 物种 > 分 布 于 < 分 布 区 域 > 
< 分 布 区 域 > 的 < 地 貌 、 植 被 、 土 壤 等 特征 > 


3.3 其 它 

除了 上 述 在 知识 框架 图 中 明显 展示 出 来 的 两 个 方面 的 语义 知识 外 ， 笔 者 注意 
到 ， 在 实际 的 科技 文献 中 还 存在 不 少 有 分 析 价 值 的 语义 标注 。 根 据 人 工 标 引 的 
科技 文献 ， 笔 者 发 现 ， 有 不 少 知识 无 法 简单 地 以 某 个 知识 单元 或 某 个 知识 单元 
间 关 联 关系 的 形式 展示 出 来 ， 比 如 一 个 完整 的 实验 条 件 〈 如 化 学 元 素 的 浓度 与 
温度 控制 综合 作用 的 实验 条 件 ) 、 一 个 完整 的 实验 过 程 等 ， 这 些 知识 可 能 包含 
了 多 个 知识 单元 和 知识 单元 间 的 关联 关系 。 针 对 这 些 内 容 ， 笔 者 可 以 采用 知识 
句 群 的 方式 进行 表达 ， 即 将 关联 密切 的 多 个 短语 或 短 句 组 织 在 一 起 ， 以 保证 知 
识 的 完整 性 。 依 据 他 们 的 内 容 ， 可 以 简单 将 这 类 知识 划分 为 : 方法 、 过 程 、 结 
果 几 类 。 这 些 内 容 与 上 述 的 两 类 语义 知识 共同 构成 了 生物 多 样 性 语义 知识 框架 。 
针对 这 一 部 分 知识 的 识别 方法 将 在 后 续 的 研究 中 进一步 曾 述 ， 下 文 将 围绕 前 两 
类 知识 的 识别 展开 实验 探索 。 
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图 1 生物 多 样 性 语义 知识 框架 

4 语义 知识 抽取 的 实现 

基于 上 文 定义 的 生物 多 样 性 语义 知识 框架 ， 笔 者 尝试 利用 词典 、 规 则 、 句 
法 分 析 等 综合 方法 ， 从 检索 获取 的 生物 多 样 性 相关 的 科技 文献 摘要 中 ， 识 别 出 
知识 框架 中 定义 的 知识 单元 和 知识 单元 间 的 关联 关系 。 
4.1 实验 数据 及 语 料 的 选择 

为 了 探索 生物 多 样 性 领域 的 知识 抽取 ， 笔 者 从 pubmed 数据 库 的 Plant 
Physiology、The Plant Cell 两 个 期 刊 上 获取 了 23000 篇 左右 的 期 刊 文摘 ， 并 根据 
中 国 科 学 院 植物 研究 所 提供 的 20 种 核心 期 刊 列 表 ， 从 WOS 获取 了 27049 条 科 
技 文摘 数据 。 本 研究 将 设计 相应 的 方法 来 识别 出 这 些 摘要 中 提 及 的 语义 知识 。 
为 了 提升 本 研究 识别 的 效率 ， 笔 者 通过 专家 咨询 及 参考 中 科 院 植物 研究 所 的 相 
关 研 究 四 ， 收 集 整 理 了 可 作为 信息 抽取 词 表 的 相关 语 料 ， 主 要 包括 : 植物 所 提 
供 的 G2000 植物 本 体 数据 库 、NCBI 物种 库 、UMLS 中 的 相关 领域 术语 和 词汇 、 


地 址 名 称 词 表 、Chemical Entities of Biological Interest 中 的 小 化 合 物 名 称 等 ， 
些 领 域 资源 将 作为 实体 名 称 识别 的 重要 支撑 。 
4.2 知识 抽取 框架 的 设计 
为 了 更 好 地 实现 知识 单元 及 知识 单元 间 关 系 的 识别 ， 笔 者 设计 了 图 2 所 示 的 
知识 抽取 框架 ， 内 丛 步 对 描述 如 下 : 
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图 2 语义 知识 抽取 框架 

(1) 输入 数据 源 

主要 包括 待 抽取 的 科技 文献 及 相关 领域 资源 《植物 多 样 性 本 体 、NCBI 物 种 
库 等 ) 。 

(2) 抽取 工具 及 方法 

通过 采用 不 同 的 自然 处 理工 具 《〈 包 括 Stanford Berkerly Parser 等 ) ， 
实现 对 文本 的 词性 标注 、 句 法 依存 关系 分 析 及 句子 的 语法 语义 分 析 。 通 过 结合 
不 同 的 抽取 规则 和 距离 度量 算法 ， 

(3) 实体 抽取 与 关系 抽取 

实体 抽取 与 关系 抽取 之 间 是 一 个 交叉 迭代 实现 的 过 程 ， 一 方面 ， 实 体 抽 取 
过 程 的 本 和 喘 是 一 个 迭代 过 程 ， 新 识别 的 命名 实体 添加 到 用 户 词 典 中 ， 用 于 下 一 
轮 的 实体 识别 过 程 ， 另 一 方面 ， 关 系 抽取 的 结果 也 可 以 用 于 发 现 新 的 实体 ， 新 
发 现 的 实体 用 于 下 一 轮 的 关系 发 现 过 程 。 

(4) 信息 抽取 结果 存储 

根据 信息 抽取 结果 类 型 的 不 同 ， 采 用 RDF 存储 和 数据 库存 储 两 种 方式 实现 
实体 及 关系 的 存储 。 
4.3 知识 抽取 的 流程 

(1) 知识 单元 的 标注 与 抽取 

命名 实体 的 识别 主要 方法 包括 基于 词典 和 规则 的 方法 ， 以 及 基于 统计 的 方 
法 等 。 在 这 里 ， 笔 者 采用 的 命名 实体 识别 方法 以 词典 为 基础 ， 采 用 基于 规则 和 
统计 方法 相 结 合 ， 实 现 新 实体 发 现 识别 。 

1 基于 领域 词典 的 实体 标注 。 对 领域 资源 进行 分 析 提 取 ， 形 成 可 用 于 命名 
实体 抽取 的 领域 词典 ， 实 现 对 科技 文献 中 所 涉及 的 实体 标注 。 在 具体 实现 过 程 


中 ， 严 格 按照 词典 进行 标注 ， 获 取 实 体 在 句子 中 的 相关 信息 ， 如 图 3 所 示 ， 彩 
色 部 分 为 标注 结果 。 

2 ”基于 词典 相似 性 的 新 实体 识别 。 基 于 词典 的 命名 实体 识别 无 法 解决 未 
登录 词 的 问题 ， 通 过 识别 文本 中 含有 的 命名 实体 ， 并 计算 其 与 词典 中 命名 实体 
之 间 的 距离 ， 实 现 对 一 些 未 登录 词 的 识别 。 对 于 上 例 中 ，Solanum section Petota 
作为 一 个 整体 出 现 表 示 一 个 命名 实体 ， 而 基于 词典 的 方法 则 只 识别 了 
Solanum， 则 可 以 通过 相似 性 扩展 ， 实 现 规范 的 实体 识别 ， 从 而 实现 实体 sect. 
Petota 的 识别 。 

Species boundaries were assessed by phenetic analyses of morphological data for all 
Species of wild potatoes (Solanum section Petota) assigned to ser. Longipedicellata: S. 
fendleri, S. hjertingii, S. matehualae, , S. polytrichon, and S. stoloniferum. 
These six tetraploid species grow in the southeastern United States (S. fendleri) and 
Mexico (all six species). We also analyzed morphologically similar species in ser. 
Demissa (S. demissum) and ser. Tuberosa ( , S. gourlayi, S, verrucosum). 
We chose S. verrucosum and S. demissum as Mexican representatives, and 
and S. gourlayi as South American representatives of other series that are difficult to 
distinguish from ser. Longipedicellata. We also analyzed morphologically more 
dissimilar species in ser. Tuberosa (S. berthaultii) and ser. Yungasensia (S. 
chacoense). The results support only three species in ser. Longipedicellata: (1) S. 
polytrichon, (2) S. hjertingii + S. matehualae, (3) S. fendleri + 十 S， 
stoloniferum. Solanum avilesii, S. gourlayi, and to a lesser extent S. demissum and S. 
Verrucosum are Very similar to members of ser. Longipedicellata and are difficult to 
distinguish practically from them, despite differences in chromosome numbers and 
crossability relationships. These data help document and explain the extensive 
taxonomic difficulty in sect. Petota, highlight conflicts between biological and 
morphological species concepts, and add to a growing body of evidence that too many 
wild potato species are recognized. (1192769)¢ 
3 基于 领域 词典 的 实体 标注 样 例 
3 ”基于 语法 关系 的 新 实体 识别 。 文 本 中 出 现 的 有 些 实体 通过 上 述 两 种 方法 
仍然 无 法 辨识 ， 例 如 ser. Longipedicellata, ser. Tuberosa, ser. Yungasensia , S. 
matehualae。 对 于 这 些 词 的 识别 ， 通 过 分 析 名 子 的 句法 依存 关系 及 语法 关系 〈 并 
列 的 句子 成 分 ) ， 结 合 统计 分 析 算 法 ， 可 以 实现 命名 实体 的 识别 。 

4 ”实现 文献 中 术语 的 标识 。 除 了 文本 中 包含 的 命名 实体 ， 领 域 的 术语 其 
有 提示 文献 内 容 的 重要 作用 ， 因 此 术语 的 识别 有 助 于 为 用 户 提 供 文 献 内 容 的 直 
接 简洁 的 认 知 。 通 过 词法 分 析 方 法 〈 名 词 词组 等 ) 对 文献 中 出 现 的 重要 术语 进 
行 标注 ， 如 : Species boundaries, phenetic analyses, morphological data, tetraploid 
species 等 。 

5 ”地 理 位 置 的 识别 。 对 于 此 类 可 穷尽 的 地 理 位 置信 息 ， 通 过 地 理 词典 实现 
包括 城市 、 国 家 等 信息 的 识别 ， 例 如 : Mexican , South American , United States。 

6 ”数字 信息 的 识别 。 主 要 是 识别 文本 中 含有 的 数值 相关 信息 ， 如 年 份 、 日 
期 、 实 验 数 据 ， 以 及 相关 的 描述 数值 等 ， 此 类 信息 主要 可 借助 构词法 规划、 特殊 
数值 词典 等 实现 。 如 对 图 1 中 的 文本 ， 可 以 识别 出 six tetraploid species，three 
species。 而 对 于 文本 “The inhibition constant values were 0.46 (using acetolactate as 
substrate) and 0.19 [mu]M (acetohydroxybutyrate), respectively. ” 则 可 以 识别 其 中 所 
包含 的 0.46 和 0.19 [mu]M。 


7 ”实体 属性 标注 。 除 了 标注 命名 实体 以 外 ， 对 于 识别 出 的 命名 实体 的 描述 
信息 进行 标注 ， 可 以 更 加 全 面 的 提示 命名 实体 所 包含 的 信息 。 通 过 分 析 命 名 实体 
出 现 的 上 下 位 语 境 信 息 〈 特 定语 法 规则 、 句 法 依存 规则 等 ) ， 可 实现 实体 属性 的 
标注 。 例 如 文献 中 含有 词组 wild potatoes， 命 名 实体 识别 可 识别 出 potatoes， 通 过 
NP 名 词组 块 的 句法 依存 关系 ， 可 将 wild 标注 为 该 实体 的 属性 ， 从 而 为 用 户 提供 
更 为 精确 的 信息 。 

(2) 关系 的 抽取 

1 ”多 层级 的 共 现 关系 。 在 不 同位 置 的 共 现 关系 可 以 用 于 计算 实体 之 间 的 
关联 关系 。 本 研究 中 重点 考虑 了 命名 实体 在 标题 、 摘 要 及 句子 级 的 共 现 关系 ， 
通过 分 析 标 注 出 的 命名 实体 出 现 的 位 置 ， 可 以 获取 实体 之 间 的 共 现 关系 。 

@ 句子 级 共 现 ; 
<S. fendleri, S. hjertingii >, < S. hjertinglii , S. matehualae >,< S. verrucosum , S. 
demissum >,< Solanum avilesii, S. stoloniferum >,< S. fendleri , S. papita >... 

@ 摘要 级 共 现 : 

< potatoes, S. berthaultii >, < S. stoloniferum , S. fendleri >,< S. fendleri , S. 

verrucosum >,< S. gourlayi , S. avilesli >,< S. demissum , S. fendleri >... 

2 实体 的 同位 语法 关系 抽取 。 针 对 如 上 例子 ， 得 到 如 下 结果 : 

同位 语 关 系 : < S. verrucosum ，S. avilesii >, < S. gourlayi, S. avilesii >, < S. 
fendleri, S. matehualae >, <Solanum section Petota , wild potatoes > 等 。 

3 实体 的 并 列 语法 关系 抽取 。 针 对 如 上 例子 ， 得 到 如 下 结 

并 列 关 系 : <S. matehualae , S. stoloniferum >,<S. polytrichon , S. hjertingii 
>,<S. fendleri , S. stoloniferum >,<S. hjertingil , S. papita >,<lesser extent S. 
demissum , S. verrucosum >,<S. hjertingii , S. stoloniferum > 等 。 

4 事实 关系 识别 。 在 标题 、 摘 要 中 存在 的 <S, P, O> 〈 主 语 ， 谓 词 ， 宾 语 ) 
事实 ， 可 为 后 续 的 关系 推理 提供 重要 的 支持 ， 这 一 类 的 事实 包括 通用 型 事实 与 
植物 本 体 中 定义 的 事实 关系 ， 借 助 于 句法 依存 关系 分 析 、 本 体 映 射 ， 对 上 例 
(1192769) 文本 进行 抽取 ， 可 以 得 到 如 下 结 

@ <"We","also analyzed morphologically","similar species"> 

@ <"These data","explain the extensive taxonomic difficulty in"  ,"sect. 
Petota "> 

@ <"SouthAmerican representatives of other series","are difficult to 
distinguish from"," Longipedicellata "> 

© <"These six tetraploid species","grow in","the southeastern United 
States ( S. fendleri ) and Mexico"> 

@ <"We","also analyzed morphologically","more dissimilar species” > 

@ <"Species boundaries","were assessed by","phenetic analyses of 
morphological data" > 

@ <"alesserextentS. demissum and S. verrucosum","are very similar 

","members of ser. Longipedicellata "> 


to", 
© <"Theresults","support only","three species"> 

5 ”语义 上 下 位 关系 的 发 现 。 通 过 采用 基于 规则 的 方法 ， 可 以 发 现 术语 之 间 

的 语义 上 下 位 关系 ， 如 下 例 所 示 : 

@ “CSS grass margins could be improved as butterfly habitats if they are 
linked to existing habitats such as hedgerows, are sown with a better range of 
native grasses and herbs and are managed in a way more conducive to 
wildlife.( 1196577)” 


可 以 标识 出 hedgerows 是 于 hedgerows 的 下 位 术语 ， 即 <hedgerows， 
hypogyny , habitats > 


@ “Weinvestigated all sections of genus Cochlearia recognised in the most 
common concepts, as well as Some genera Such as Ionopsidium, Bivonaea, 
Pastorea and Thlaspis.( 1205921)” 


可 以 标识 出 Ionopsidium, Bivonaea, Pastorea 和 Thlaspis 是 genera 的 下 位 术语 ， 
即 <Ionopsidium, hypogyny , genera>, < Bivonaea, hypogyny , genera >, < 
Pastorea, hypogyny , genera >, <Thlaspis, hypogyny , genera>。 
物种 性 状 关系 识别 。 例 如 : wild potatoes， 可 以 标注 出 potatoes 具有 属性 wild， 
即 <potatoes,have property , wild>。 


4.4 知识 抽取 的 结果 应 用 

以 领域 词典 和 人 工 为 主 撰写 的 规则 库 为 重要 的 知识 库 支 撑 的 知识 抽取 方法 虽 
然 在 领域 快速 迁移 与 新 物种 或 新 知识 单元 识别 的 灵活 性 方面 有 所 欠缺 ， 但 是 其 
准确 性 可 以 得 到 有 效 的 保障 ， 从 而 进一步 支撑 实际 的 知识 检索 应 用 。 基 于 上 述 
知识 抽取 的 结果 ， 综 合 利用 领域 知识 库 和 其 它 第 三 方 资源 ， 笔 者 进一步 构建 了 
生物 多 样 性 领域 语义 检索 的 应 用 示范 平台 ， 为 用 户 提供 领域 知识 揭示 、 语 义 标 
注 、 本 体 导 航 等 检索 应 用 。 图 4- 图 7 展示 了 相关 的 抽取 结果 和 对 生物 多 样 性 领 


域 语 义 检索 的 支撑 结果 。 


identfier nerName nerldentfier nerType lieralidentfier lteralZone nerStat nerEnd language annotatedTime sourceDictionay 
1 1clf16cc6526b1af886d5gba9d18cleb3711 。 Wiciaceae [100466] famiy 1188180 Abstac pl 108 119 器 20140506 18:01:35.887 PDBOntology 

2 1clf423b28d8bd4c94f49aa239a205eb3.711 Pinus [119655] genus 1207118 Abstract En 1827 1832 。 印 201405.06 18:46:40.107 ”PDBOntology 

3 1clf7cd13077ed8b27a698cf9e64121b3711 CAM T100776] photosynthesis 1200656 Abstac P 720 723 名 2014.0506 18:32:08.980 PDBOntology 

4 tclfe5562d21A546059367abbd3711 fnit [74459, 77005] plant anatomical entity 97576 Abstac En 847 852 。 印 2014-03:24 20:16.09747 Ontology_AcceptedName 
5 ”1c1f893d0da4aa38e58d648d124020e43.711 ar [28859] environmental features and habitats 493815 Abstac En 369 372 。 印 201403.24 20:09:41.420 。 Ontology_AcceptedName 
6 ”1clfb09e509787ad85d6e21T1a3cd0a3711 tree [100272] habt 1189817 Abstract P 533 537 ， 印 2014.05-06 18:05:28.857 PDBOrtology 

7 elie577eeb3d38d1af4c8bgfe5c763711 。 fiower [74215. 77067] -plant anatomical entty 392336 Abstrad En 87 813 中 201403.24 19.5739 607 Ontology_AcceptedName 
8 1c1fd00a8b102a9iac2be043727056553.711 。 poyacniamide gel electrophoresis [1813 刀 Laborator Procedure 872257 Abstact P 926 $80 印 2014.03.24 20:11:34.107 Ontology_AcceptedName 
9 。 1c1fd5643e82df384d66bib86a5b8f193.711 。 gynodioecious [120606] plantHowerSexalty 1199605 Abstac pl 396 409 印 20140506 18:29:21.450 PDBOntology 

10 。 1cH08ca5c5e40c48410422cfc2b2c03.711 。 water [28245] environmental features and habitats 。 488969 Abstract_En 74 3 印 201403.24 20:09:08.810 。 Ontology_AcceptedName 
11 。 1c20c402af3a996396bd6767503977323.711 Calathea [113630] genus 1207930 Abstac En 920 328 。 印 2014-05-06 18:48:41.590 PDBOntology 

12 1c2293d5ebf1f23a89eed9033eelefb3711 。 biota Il18360) genus 1203263 AbstacP 142 17 6 2014.05406 18:39:28.230 ”PDBOntology 

13 1c22dbcd77iafe67c4b5c94a169b92ab3.711 tree Tio02721 habt 1201832 Abstract En 310 314 男 2014-05-06 18:35:11.340 ”PDBOntology 

14 。 1c223289c922cd943e2af73f4cd7893.711 Arabidopsis [58496] genus 476296 Abstracdt_En 1522 1533 。 印 2014.03.24 20:04:33.247 Ontology_AcceptedName 
15 。 1c22zc501be7317101ba6b275d07ac613.711 rice speciesncbi:.. speciesncbi4530 83442 Abstac En 573 57 201403.24 19:49:10.793 。NCBI 

16 。 1c230443428af4deeaab25c19b3378f3.711 。 Phoebe [114415] genus 1178927 THeEN 35 41 印 2014.0507 08:53:03.950 ”PDBOrtology 

17 。 1c23a70c79196895d1d5b631c4f1698b3.711 ”Quercus [120001] genus 1187812 Abstract_En 83 0 对 20140506 18:00:43.760 ”PDBOntology 

18 1c23b9dc27ae3ebdi31947b3e790409b3711 ”Phmula [117847 genus 1201740 THeEN 55 2 印 20140507 09:05:07.497 = PDBOntology 

19 1c23c0fb3344762169d497125e260a7d3711 free [30686, 31557] -plantGynoeciumCarpelFusionplan... 497987 Abstract-En 367 37 名 2014.03.24 20:10:21.277 a Ontology_AcceptedName 
20 。 1c23ce608354aa2f98c90c0c420f43153711 。 Nicotiana [81964] genus 284748 Abstac En 17 128 印 201403.24 19:55:03.920 。 Ontology_AcceptedName 
21 。 1c23d9210e452s345a0209c2315d31cb83.711 ”Arabidopsisthalana speciesncbi:.. speciesmcbi3702 100210 Abstract_En 0 2 吨 201403.24 19:44:39.073 ”NCBI 

22 parenchyma [78436] plant anatomical entity 485844 Abstract En 1160 10 印 201403.24 20:07:27.420 Ontology_AcceptedName 

也 3 We ree 
4 生物 多 样 性 领域 实体 抽取 结果 示例 
identfier nerName1 neridertfier1 nerName2 nerldentfier2 ralation Type relation lteralldentfier 。 zone annotatedTme 

1 gbae15224078.. French oceanographic research centre 。 3030235e66f3dead.， IFREMER 条 381f7a9f6614e8cc.。 semantic_relation 。 appostion_relation .1196111 Abstact_En 。 2014-05-20 17:10:25.35 
2 8cb25163d769.. SH ec57040d56945d1... Shimodaira-Hasegawa 342883ef1cb34ccc0.. semantic_relation «apposiion_relation_.. 1193127 Abstact_ Fn。 20140520 17:10:33.18 
3 gbb47cb7bdce.. subtropical woody dwarf bamboo fbcc164889a6a06F... Nakai 02497673db92a38c.、 semantic_relation apposiion_relation_.. 1203822 Abstract_En 。 20140520 1707.30 96 
4 8bb6871704ad.. Sierma Madre Occidental 5c41d49097eea0d.，。 Oriental Socoriusco Siema_Madre ee153c4e8e7e2e8c.. semantic_relation 。 apposiion_relation .1178780 Abstract_En 。 201405.20 16:40:23.82 
5 Bbbb593de701.. Pintegrfola | 072654cc737aa8c... FP. balbisi Lehm a33949699bc62dc4.. semantic_relation -apposition_relation_... 1179007 Abstract_En -2014.05:20 17:12.27.01 
6 gbctfe28dca05.. Onobychis Bc9146e40ab39a1.. Alhagi Tavemiera df40b1e1a63707e6e.。 semantic_relation «apposiion_relation_.. 1207684 Abstract_En 。 20140520 17:13:01.46 
7 gbc355a1da12.. infomation bb3ccd5881d6514.. species cd3d20b946198768.. semantic_relation apposiion_relation_.. 1196134 Abstract_ Fn。 20140520 17:01:29.97 
8 Bbc515af0398d.. ndhF 6b02b9d3db40885.、。 DNA sequence data bbb42b6f90caf321c... semantic_relation «apposiion_relation_... 1207965 Abstract_En 。 201405.20 17:06:18.14 
9 gbc5eace07a0.. ndhF 6b02b3d3db40885.. matK 4745ad295a52c4b3 semantic_relation «apposiion_relation_... 1200919 Abstract_En = 2014.05:20 17:12:54.02 
10 gbcA2a202785.. leaf area d418433741e3ba73.. leaves 79F7d2ef17285d43e... semantic_relation «apposiion_relation_... 1201783 Abstract_En 。 201405-20 16:37:08.26 
11 gbcfe23ee2ec.. Plantaginaceae S62bBdbb4ef4738... -Pseudolysimachion ala02052eb5cc69e.. semantic_relation 。 appostion_relation .1178313 Abstact_ En 。 20140520 17:07:27.66 
12 gbcd9559504c.. seed bank gemination 723eefd9e970d03.，。 seed dispersal c6de66f094a23dd2. 。 semantic_relation 。 appostion_relation .1200247 Abstract_ En 。 2014-05-20 16:48:32.28 
13 。 8bd0544671ad Neogroleoideae ee2cccf858b71289... relationships eaa7c88f5c1246724.、 semantic_relation 。 apposition_relation_.. 1206711 Abstract_En 。 201405-20 17:13:41.76 
14 gbd073blf9aeb.. PS-1 ebab54a04498e91... Soybean_partialfemale-sterle_mutant 1 6d8311de45155701.. semantic_relation «appostion_relation_... 1191122 Abstract_En 。 20140520 17:13:05.92 
15 。 8bd162c3b06c standing leaf_numbers 736f1522edc4590 。 significant_sun leaf thickness ecbcb3b5229b3c37.. semantic_relation «apposition_relation_... 1189919 Abstract_En «= 201405.20 16:38:20.41 
16 gbd561bab288.. var b2145aac704ce76... vareties 1a1d4cb0fac4d95fe ”semantic_relation 。 apposiion_relation_... 1205370 Abstract_En 。 20140520 16.37:47.86 
17 8bdgbcf9f183c.、 ITS fcdb76644228e946 spacer dddd37dfc73610674.. semantic_relation 。 appostion_relation .，。 1194070 Abstract_En 。 20140520 17.13:41.88 
18 gbdcdd3d7b14.. database management options 86e4019938c8cc2 monitoring approaches a8527b789cbcb723.. semantic_relation 。 apposition_relation _，。 1197641 Abstract_En 。 2014.05.20 17:13:39.48 
19 gbdic3d61lc5ac.. Desmos saccopetaloides aea2574551d4950f.. China ae54a5c02631ada0 ， semantic_relation «apposiion_relation_... 1187069 Abstract_En 。 201405-20 16:34:38.94 
20 。 Sbe03debd9b5 ”complete deletion Sdf27a4d4ddb4900... pAs1-FISH pattems 991fb99dbcc4f7087.. semantic_relation «apposiion_relation_... 1206166 Abstract_En «2014.05:20 17:11:0371 


图 5 生物 多 样 性 领域 语义 关系 
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5 New triterpene saponins from the root of llex pubescens 

Fitoterapia, Volume 81, /ssue 7, October 2010, Pages 788-792 

Cui-Xian Zhang, Chao-Zhan Lin, Tian-Qin Xiong, Chen-Chen Zhu. Jin-Yan Yang, Zhong-Xiang Zhao 
Abstract 

Two new ISSN named ile esnin A (1) and ilexpublesnin B (2) were isolated from the root of 
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图 6 基于 本 体 概 念 或 实体 的 知识 浏览 、 检 索 与 统计 分 析 功 能 
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图 7 基于 语义 知识 抽取 的 单 篇 文章 共 现 关系 知识 图 


4 结语 

本 文 在 对 当前 生物 多 样 性 信息 抽取 领域 相关 研究 分 析 的 基础 上 ， 结 合 中 国 
科学 院 文献 情报 中 心 “ 建 设 生物 多 样 性 领域 本 体 构建 与 语义 组 织 应 用 示范 平 
台 ” 的 实际 要 求 ， 设 计 了 生物 多 样 性 语义 知识 抽取 框架 ， 并 利用 十 二 五 科技 支 
撑 计 划 “ 面 向 外 文科 技 文献 信息 的 知识 组 织 体系 建设 与 应 用 示范 (STKOS) ”构建 
的 植物 多 样 性 本 体 作为 底层 的 词典 ， 探 索 实现 了 相应 的 语义 知识 抽取 方法 ， 开 
发 了 相应 的 生物 多 样 性 示范 平台 。 本 研究 更 多 从 实际 应 用 的 层面 探索 了 可 工程 
化 应 用 的 知识 组 织 框架 及 知识 识别 的 方法 ， 因 此 ， 词 典 和 人 工 撰写 的 规则 是 本 
研究 中 开展 知识 抽取 的 重要 组 成 部 分 ， 正 因为 此 ， 词 典 和 人 工 规则 本 身 所 固有 
的 局 限 性 也 在 一 定 程度 上 限制 了 识别 的 完整 性 和 准确 性 ， 在 后 续 的 研究 中 ， 针 
对 各 类 型 知识 单元 的 精细 化 识别 仍 将 是 重要 内 容 。 
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